作者:Ace狂_338 | 来源:互联网 | 2023-06-17 13:17
篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据笔记:大数据启蒙与入门知识相关的知识,希望对你有一定的参考价值。 目录 大数据启蒙与入门知识 一、前言 二、千里之行,始于足下 三
篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据笔记:大数据启蒙与入门知识相关的知识,希望对你有一定的参考价值。
目录
大数据启蒙与入门知识
一、前言
二、千里之行,始于足下
三、分治思想
四、单机处理大数据问题
五、集群分布式处理大数据的辩证
六、Hadoop之父Doug Cutting
七、Hadoop的时间简史
八、Hadoop项目/生态
九、大数据生态
大数据启蒙与入门知识
一、前言
博主语录:一文精讲一个知识点,多了你记不住,一句废话都没有
经典语录:那日看雪,你从未看我,我从未看雪
二、千里之行,始于足下
- 启蒙很重要
- 分治思想
- 单机处理大数据问题
- 集群分布式处理大数据的辩证
三、分治思想
需求:
- 我有一万个元素(比如数字或单词)需要存储?
- 如果查找某一个元素,最简单的遍历方式复杂的是多少?
- 如果我期望复杂度是O(4)呢?
学习知识的时候要去搞明白它存在的意义,这样学习成本才会低
分而治之的思想很重要,出现在了很多地方:
- Redis集群
- ElasticSearch
- Hbase
- HADOOP生态无处不在!
四、单机处理大数据问题
需求:
- 有一个非常大的文本文件,里面有很多很多的行,只有两行一样,它们出现在未知的位置,需要查找到它们
- 单机,而且可用的内存很少,也就几十兆
解决思路:
- 假设Io速度是500MB每秒
- 1T文件读取一遍需要约30分钟
- 循环遍历需要N次Io时间
- 分治思想可以使时间为2次io
小贴士:内存寻址比Io寻址快10万倍
思考: 如果让时间变为分钟、秒级别
五、集群分布式处理大数据的辩证
- 2000台真的比一台速度快吗?
- 如果考虑分发上传文件的时间呢?
- 如果考虑每天都有1T数据的产生呢?
- 如果增量了一年,最后一天计算数据呢?
结论
- 分而治之 并行计算
- 计算向数据移动
- 数据本地化读取
- 以上这些点是学习大数据技术时需要关心的重点
六、Hadoop之父Doug Cutting
- Hadoop的发音是 [hædu:p]
- Cutting儿子对玩具小象的昵称
- Nutch Lucene
- Avro
- Hadoop
七、Hadoop的时间简史
- 《The Google File System 》 2003年
- 《MapReduce: Simplified Data Processing on Large Clusters》 2004年
- 《Bigtable: A Distributed Storage System for Structured Data》 2006年
- Hadoop由 Apache Software Foundation 于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。
- 2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。
- Cloudera公司在2008年开始提供基于Hadoop的软件和服务。
- 2016年10月hadoop-2.6.5
- 2017年12月hadoop-3.0.0
- hadoop.apache.org
八、Hadoop项目/生态
The project includes these modules:
- Hadoop Common
- Hadoop Distributed File System (HDFS™)
- Hadoop YARN
- Hadoop MapReduce
Other Hadoop-related projects at Apache include:
- Ambari™
- Avro™
- Cassandra™
- Chukwa™
- HBase™
- Hive™
- Mahout™
- Pig™
- Spark™
- Tez™
- ZooKeeper™
九、大数据生态
www.cloudera.comhttps://www.cloudera.com/Cloudera’s Distribution Including Apache Hadoop CDH is the most complete,tested, and popular distribution of Apache Hadoop and related projects.
- 📢博客主页:https://lansonli.blog.csdn.net
- 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
- 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
- 📢大数据系列文章会每天更新,停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨